概率与统计：不确定性的科学：统计量作为随机变量：抽样分布

在统计推断中，我们从观察单个数据点转向分析一个**统计量**——即样本序列的函数映射 $Y = h(X_1, X_2, \dots, X_n)$。由于底层样本由随机变量组成，该统计量本身也是一个随机变量，其概率规律被称为**抽样分布**。

统计量作为映射

统计量的形式定义为一个函数 $h: \mathbb{R}^n \to \mathbb{R}$。我们通过原像来定义统计量落入集合 $B$ 的概率：

$$h^{-1} B = \{(x_1, x_2, \dots, x_n) : h(x_1, x_2, \dots, x_n) \in B\}$$

对于一组独立同分布（i.i.d.）的随机变量样本，特定样本点 $(x_1, \dots, x_n)$ 的联合概率等于其边缘概率的乘积：$p(x_1)p(x_2)\dots p(x_n)$。该乘积在计算统计量取某一特定值的总概率时，充当每个样本点的权重。

例 4.1.1：几何平均数

考虑一个离散总体，其中 $p_X(1) = 1/2$，$p_X(2) = 1/4$，$p_X(3) = 1/4$。我们抽取大小为 $n=2$ 的样本 ($X_1, X_2$)，并将统计量定义为几何平均数：$Y_2 = (X_1 X_2)^{1/2}$。

为了求出 $Y_2$ 的分布，我们列出所有 9 种可能的配对 $(X_1, X_2)$，计算它们的联合概率以及对应的 $Y_2$ 值：

在进入中心极限定理（CLT）等极限定理之前，我们必须掌握“精确分布”。这包括在给定较小且有限的 $n$ 时，计算统计量的具体概率质量函数或密度函数。当解析形式难以处理时，我们转而使用数值模拟方法，如**蒙特卡洛近似**。

🎯 核心原则

抽样分布是某个独立同分布序列函数所对应的随机变量的分布。它是原始数据与科学推断之间的桥梁。

问题 1

假设 $X_1, X_2, X_3$ 独立同分布于例 4.1.1 中的分布。求几何平均数 $Y_3 = (X_1 X_2 X_3)^{1/3}$ 等于 1 的概率是多少？

$1/2$

$1/4$

$1/8$

$1/27$

问题 2

一个公平的六面骰子被独立投掷 $n = 2$ 次。以下哪一项是样本均值恰好为 1.5 的概率？

$1/36$

$2/36$

$3/36$

$1/6$

问题 3

在一个装有比例为 $p$ 的标号为 0 的筹码和比例为 $1-p$ 的标号为 1 的筹码的罐子中，不放回地抽取大小为 $n=2$ 的样本。样本均值为 0.5 的概率是多少？

$p^2$

$(1-p)^2$

$2p(1-p)$

$p(1-p)$

问题 4

哪一个数学结构代表了所有导致统计量 $h$ 落入特定区间 $B$ 的样本点 $(x_1, \dots, x_n)$ 的集合？

联合密度函数

原像 $h^{-1}B$

矩生成函数

期望值映射

问题 5

当通过蒙特卡洛方法近似积分 $\int_{-\infty}^{\infty} \cos^2(x)e^{-x^2/2} dx$ 时，应从哪个分布采样以简化计算？

均匀分布 (0, 1)

泊松分布 (1)

标准正态分布 $N(0, 1)$

指数分布 (1)